/misc/data26-brs/ENCORTV1/voice_conv
La composante "conversion de voix" part de la représentation spectrale et la transforme pour produire une nouvelle représentation, en changeant l'identité de la personne qui parle. La représentation modifiée est passée au vocodeur pour qu'il produise le signal sonore final.
Il y a un compromis à faire sur le niveau de détail de la représentation.
Plus elle est simplifiée, plus c'est facile pour le convertisseur de voix d'apprendre comment la modifier correctement sans faire d'erreurs grossières. Mais une représentation trop simplifiée ne donne pas assez d'information au vocodeur pour reconstruire une voix de bonne qualité.
Nous avons commencé à expérimenter en variant le détail de la représentation. L'optimal devrait se situer entre le niveau simple utilisé par le convertisseur (Adapt-vc) et le niveau très détaillé utilisé par UnivNet.
Les résultats illustrés ici ont été obtenus avec la représentation de Univnet.
Entraîné avec des représentations générées par le code mel univnet mel.
Représentation originale
Représentation après une conversion de voix, cible = même locuteur
Dans cette démonstration, le modèle de conversion de voix (Adapt-vc) est entraîné sur 100 heures de données publiques de voix lue (LibriTTS). La représentation est obtenue avec le code de UnivNet et les paramètres de univnet.
/misc/data26-brs/ENCORTV1/voice_conv/adaptive_voice_conversion
Ici le modèle de conversion est appliqué sur des voix lues, tirées elles aussi de LibriTTS, mais qui n'ont pas été vues lors de l'entraînement. La représentation spectrale de l'original est modifiée par Adapt-VC puis passée à UnivNet pour recréer un signal sonore.
Il y a 4 fichiers sonores originaux qui ont servi pour ces exemples, soit un court et un long pour une femme et un homme. Ils sont désignés par "court femme", "long homme", etc.
Chaque exemple est constitué d'une source et d'une cible. La source audio est le fichier sonore de départ. La voix cible est un autre fichier sonore qui constitue l'exemple de la voix qu'on cherche à atteindre.
Le premier bouton permet d'écouter la source, le deuxième permet d'écouter le résultat de la conversion vers la cible.
Pour écouter l'original d'une cible, rechercher cette cible parmi les sources.
Normalement, on utilise pour la cible une grande quantité de données plutôt qu'une courte phrase comme ici. Cela permet de mieux capturer les caractéristiques du locuteur. On constate d'ailleurs que la qualité obtenue est meilleure lorsque la cible est un des fichiers longs plutôt qu'un des fichiers courts.
1. Source audio: court femme, voix cible: court femme
2. Source audio: court femme, voix cible: long femme
3. Source audio: court femme, voix cible: court homme
4. Source audio: court femme, voix cible: long homme
5. Source audio: court homme, voix cible: court homme
6. Source audio: court homme, voix cible: long homme
7. Source audio: court homme, voix cible: court femme
8. Source audio: court homme, voix cible: long femme
Ici le modèle de conversion est appliqué sur extraits de séries plutôt que sur de la parole lue. On s'attend à une dégradation de la qualité puisque le modèle de conversion n'a été entraîné que sur de la parole lue.
Ici encore, 4 fichiers sonores originaux ont servi pour ces exemples, soit un court et un long pour une femme et un homme, et sont désignés par "original" ci-bas.
La source est le fichier sonore de départ.
La cible est un autre fichier sonore qui constitue l'exemple de la voix qu'on cherche à atteindre.
Le résultat qu'on écoute vise à correspondre au contenu parlé de la source mais avec la voix de la cible.
1. Source audio: court femme, voix cible: court femme
2. Source audio: court femme, voix cible: long femme
3. Source audio: court femme, voix cible: court homme
4. Source audio: court femme, voix cible: long homme
5. Source audio: court homme, voix cible: court homme
6. Source audio: court homme, voix cible: long homme
7. Source audio: court homme, voix cible: court femme
8. Source audio: court homme, voix cible: long femme